A100 部署 Grok2.5

下载模型

1 2	export HF_ENDPOINT=https://hf-mirror.com huggingface-cli download --resume-download xai-org/grok-2 --local-dir /data/grok2

下载模型可能会失败很多次，需要在失败后继续运行下载命令

官方说明需要8个 40GB+ 的 GPU 才能运行

拉取 sglang

1	docker pull lmsysorg/sglang:latest

拉取不下来，可以使用加速地址

运行

官方推荐命令为

1	python3 -m sglang.launch_server --model /local/grok-2 --tokenizer-path /local/grok-2/tokenizer.tok.json --tp 8 --quantization fp8 --attention-backend triton

使用 docker 后，命令为：（A100 不能进行 fp8 量化，所以去除）

docker run --gpus all --shm-size=2g -d \
  -v /data/grok2:/data/grok2 \
  -p 30000:30000 \
  --name sglang-grok \
  --restart unless-stopped \
  -e NCCL_DEBUG=INFO \
  cf-workers-docker-io-3hw.pages.dev/lmsysorg/sglang:latest \
  python3 -m sglang.launch_server \
    --model-path /data/grok2/ \
    --tokenizer-path /data/grok2/tokenizer.tok.json \
    --tp-size 8 \
    --attention-backend triton \
    --host 0.0.0.0 \
    --port 30000 \
    --mem-fraction-static 0.8 \
    --context-length 32768